智能论文笔记

Impact of RoCE Congestion Control Policies on Distributed Training of DNNs

Tarannum Khan , Saeed Rashidi , Srinivas Sridharan , Pallavi Shurpali , Aditya Akella , Tushar Krishna

分类：人工智能

2022-07-22

RDMA超过融合以太网（ROCE），由于其与常规以太网的织物的兼容性，对数据中心网络具有重要的吸引力。但是，RDMA协议仅在（几乎）无损网络上有效，这强调了拥塞控制对ROCE网络的重要作用。不幸的是，基于优先流量控制（PFC）的本地ROCE拥塞控制方案遭受了许多缺点，例如不公平，线路阻滞和僵局。因此，近年来，已经提出许多计划为ROCE网络提供额外的拥塞控制，以最大程度地减少PFC缺点。但是，这些方案是针对一般数据中心环境提出的。与使用商品硬件构建并运行通用工作负载的一般数据中心相反，高性能分布式培训平台部署高端加速器和网络组件，并专门使用集体（全能，全能，全能）运行培训工作负载）通信库进行通信。此外，这些平台通常具有一个私人网络，将其通信流量与其他数据中心流量分开。可扩展的拓扑意识集体算法固有地设计旨在避免造成的模式并最佳地平衡流量。这些独特的功能需要重新审视先前提出的通用数据中心环境的拥塞控制方案。在本文中，我们彻底分析了在分布式培训平台上运行时的一些SOTA ROCE拥塞控制方案与PFC。我们的结果表明，先前提出的ROCE拥塞控制计划对培训工作负载的端到端表现几乎没有影响，这激发了根据分布式培训平台和分布式培训平台和特征的设计优化但低空的拥塞控制计划的必要性工作负载。

translated by 谷歌翻译

在本文中，我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译（MT）系统的发现。我们在三个研究领域中描述了结果：（i）通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁，网挖数据集；（ii）通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型，该模型训练了有监督的并行数据，以使用100多种高资源语言和单语言数据集，以增加1000多种语言；（iii）研究这些语言的评估指标的局限性，并对我们MT模型的输出进行定性分析，突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解，并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。

translated by 谷歌翻译

自我监督的学习（SSL）已成为几个领域分类和分割任务中的新最先进。其中，SSL中的一个流行类别是蒸馏网络，例如BYOL。这项工作提出了RSDNET，该RSDNET在遥感（RS）域中应用蒸馏网络（BYOL），其中数据与天然RGB图像无关。由于多光谱（MS）和合成孔径雷达（SAR）传感器提供各种光谱和空间分辨率信息，因此我们将它们用作隐式增强，以学习不变特征嵌入。为了通过SSL学习基于RS的不变功能，我们通过两种方式训练了RSDNET，即单频道功能学习和三个通道功能学习。与使用三个或更多频段的常见概念相比，这项工作探讨了从随机MS和SAR频段学习的单个通道特征学习的有用性。在我们的线性评估中，这些单个通道功能在EuroSat分类任务上达到了0.92 F1分数，对于某些单个频段，DFC分割任务上达到了59.6 MIOU。我们还将我们的结果与成像网的重量进行了比较，并表明基于RS的SSL模型的表现优于基于有监督的Imagenet模型。我们进一步探讨了多模式数据与单个模态数据相比的实用性，并且表明，使用MS和SAR数据比仅利用MS数据更好地学习不变表示。

translated by 谷歌翻译

我们提出了一种新的双边谈判模型，允许自私的代理人在存在用户偏好不确定性的情况下学习如何在多个问题上进行谈判。该模型依赖于代表代理在协商期间使用的策略的可解释策略模板，并学习模板参数以最大化在多个协商中收到的平均实用程序，从而导致最佳的出价接受和生成。我们的模型还使用深度加强学习来评估阈值实用程序值，了解需要它们的策略，从而导出每个环境状态的最佳实用程序。为了处理用户偏好不确定性，模型依赖于随机搜索，以查找最佳与给定部分偏好配置文件同意的用户模型。在协商时间内应用多目标优化和多标准决策方法，以产生帕累托 - 最佳结果，从而增加了成功（Win-Win）谈判的数量。严谨的实验评估表明，采用我们的模型的代理商在个人以及社会福利公用事业方面优于第10次自动谈判代理竞赛（ANAC'19）的获胜代理商。

translated by 谷歌翻译